CATS: Especulación de Árbol Adaptativo en Cascada para la Aceleración de Inferencia de LLM con Memoria Limitada
CATS: Especulación adaptativa en cascada para LLMs con memoria limitada. Descubre cómo esta técnica optimiza la eficiencia y el rendimiento en modelos de lenguaje.